GPT 與 Transformer 模型是怎麼一回事？

2025 iThome 鐵人賽

DAY 2

生成式 AI

30 天玩轉生成式 AI：從入門到應用系列第 2 篇

17th鐵人賽

adheywh

2025-09-16 17:29:48

469 瀏覽

分享至

引言

昨天我們聊到「生成式 AI」的概念，知道它能生成文字、圖片、音樂等等。那麼，這些能力的背後到底是什麼樣的模型在運作呢？
答案就是近年來 AI 界最火紅的架構 —— Transformer，而 GPT 就是它的代表之一。今天我們來簡單理解這兩個關鍵名詞。

Transformer 是什麼？

Transformer 是 Google 在 2017 年提出的一種神經網路架構。它解決了傳統 RNN、LSTM 在處理長文本時速度慢、記憶有限的問題。

Transformer 的核心特色是：
• Attention 機制：會去關注輸入中「最重要的部分」。例如，句子「小明去超商買牛奶」，模型在處理「牛奶」時，會特別關注「買」這個詞，因為它們關係緊密。
• 平行運算：比起 RNN 逐字處理，Transformer 能同時處理整段文字，訓練速度大幅加快。

一句話總結：Transformer = 記憶力更好 + 速度更快 + 更懂語境。

GPT 是什麼？

GPT（Generative Pre-trained Transformer）就是把 Transformer 架構用在「文字生成」的 AI 模型。

它的名字可以拆開來看：
• Generative：可以產生內容
• Pre-trained：先在大量資料上訓練，之後再針對特定任務調整
• Transformer：背後的架構

GPT 的運作方式：
1. 先讀進大量文字資料（網頁、書籍、文章）。
2. 學會「在句子裡，下一個字最可能是什麼」。
3. 當我們輸入提示詞（Prompt）時，它就會一步步生成合理的內容。

為什麼 GPT 厲害？
• 可以理解上下文（語境理解力強）。
• 能自動延伸內容（寫故事、寫程式碼）。
• 通用性高，不需要每個任務都重新訓練。

今天的重點
• Transformer：強大的模型架構，靠 Attention 機制與平行運算起飛。
• GPT：基於 Transformer 的文字生成模型，讓 AI 不只是分析，而是能創造內容。